14wk: 이산형과 연속형의 통합

Author

최규빈

Published

June 6, 2023

강의영상

youtube: https://youtube.com/playlist?list=PLQqh36zP38-wThZpnzJAP_aOtJzBl1Ij_

일반화된 밀도함수

- 라돈니코딤 정리는 꼭 르벡메져일 경우에만 성립하는 것이 아니다.

이산확률변수

- 예제1 – 베르누이 (with 카운팅메져)

아래와 같은 함수를 고려하자.

FX(x)={0x<0120x<11x1

이제 S={0,1}, S={,{0},{1},{1,2}}로 구성된 measurable space (S,S)를 생각하자. 함수 μ~X:S[0,1]를 아래와 같이 정의하면

  • μ~X()=0
  • μ~X({0})=12
  • μ~X({1})=12
  • μ~X({0,1})=1

함수 μ~X(S,S)에서의 메져가 되며, 이것은 FX에 대응하는 분포 μX와 같은 역할을 한다. 이제 measurable space (S,S)에 대하여 아래와 같은 함수 #:SR을 고려하자.

  • #()=0
  • #({0})=1
  • #({1})=1
  • #({0,1})=2

이때 함수 #(S,S) 에서의 메져가 되며, 이러한 메져를 특별히 카운팅메져(counting measure) 라고 한다. 이제 아래의 함수 fX:SR를 고려하자.

  • fX(0)=12
  • fX(1)=12

함수 fX는 카운팅메져 #에 대한 μ~X의 라돈니코딤 도함수임을 보여라.

(해설)

  1. μ~X, #는 모두 (S,S) 에서의 σ-finite 메져이다.
  2. μ~X<<#이 성립한다. 따라서 적당한 SR+ measurable function이 존재하여 라돈니코딤 도함수의 조건을 만족함을 알 수 있다.
  3. 우리가 생각하는 후보는 fX인데 이것이 만약에 (1) SR+ 가측함수이고 (2) 라돈니코딤 도함수의 조건을 만족한다면 fX는 카운팅메져 #에 대한 μ의 거의 유일한 (w.r.t. #) 밀도함수라고 주장할 수 있다.
  4. fXSR+ 가측함수이다. (simple function)
  5. BS:μ(B)=BfXd#=xBfX(x) 를 만족한다.
  • 1 BS:μ(B)=BfXd#

  • - 예제1에서 제안한 fX의 경우 어떠한 의미에서는 밀도함수라고 해석할 수 있다.

    1. 학부수준의 이해: 이산형확률변수는 확률질량함수를 가지며, 연속형확률변수는 확률밀도함수를 가진다.
    2. 대학원수준의 이해: 이산형확률변수의 밀도함수는 #에 대한 라돈니코딤 도함수로 해석할 수 있으며, 연속형확률변수의 밀도함수는 λ에 대한 라돈니코딤 도함수로 해석할 수 있다.

    - 찝찝한점1: 예제1에서는 왜 μX 대신에 μ~X를 사용했을까?

    사실 예제1에서의 μ~XFX에 대응하는 distribution μX와 유사하지만 미세한 차이가 있음

    μX:R[0,1]

    • μX()=0
    • μX({0})=12
    • μX({1})=12
    • μX({0,1})=1
    • μX(B)=0 , BR{0,1}{0}{1}

    μ~X:S[0,1]

    • μ~X()=0
    • μ~X({0})=12
    • μ~X({1})=12
    • μ~X({0,1})=1

    - 찝찝한점2: 예제1에서는 왜 (R,R)를 고려하지 않고 (S,S)를 고려하였을까?

    이건 사실 μX대신 μ~X를 쓴 이유와 연관이 있다. μXR에서 정의되고 μ~XS에서 정의되는데 예제에서는 μX대신 μ~X를 썻기 때문에 자연스럽게 (R,R) 대신에 (S,S)를 고려하게 되는 것

    - 찝찝한점의 해결:

    1. 라돈니코딤 도함수의 존재에 필요한 조건 중 하나는 라돈니코딤 도함수를 정의하는 두개의 메져 σ-finite measure이어야 한다는 것임.
    2. μX,λ on (R,R)을 고려 μX,λ 은 모두 (R,R)에서 σ-finite 조건을 만족함.
    3. μ~X,# on (S,S)을 고려 μ~X,# 은 모두 (S,S)에서 σ-finite 조건을 만족함.
    4. μX,# on (R,R)을 고려 μX(R,R)에서 σ-finite 하지만 #(R,R)에서 σ-finite 하지 않음.
  • 2 분자, 분모에 들어가는 두개의 메져

  • 따라서, (R,R)에서의 두 메져 μX,λ를 고려하거나, (S,S)에서의 두 메져 μ~X,# 를 고려해야 라돈니코딤 도함수를 따져볼 수 있다.

    모티브: 그런데 (S,S) 말고 그냥 (R,R)에서 적당히 μX,#~를 고려할 수는 없을까?

    - 예제2 – 베르누이 (with 디렉메져)

    아래와 같은 함수를 고려하자.

    FX(x)={0x<0120x<11x1

    FX에 대응하는 분포 μX:R[0,1]를 고려하자.

    • μX()=0
    • μX({0})=12
    • μX({1})=12
    • μX({0,1})=1
    • μX(B)=0 , BR{0,1}{0}{1}

    그리고 아래와 같은 메져를 고려하라. #X:RN 을 고려하자.

    • #X()=0
    • #X({0})=1
    • #X({1})=1
    • #X({0,1})=2
    • #X(B)=0, BR{0,1}{0}{1}

    이때 함수 #X:RN(R,R) 에서의 σ-finite 메져가 된다. 또한 μX<<#X 가 성립한다. 이제 아래의 함수 fX:RR+를 고려하자.

  • 3 함수 #X은 확률변수 X의 support 에서만 값이 정의되는 카운팅메져라고 생각할 수 있음

  • fX(x)={12x=0,10o.w.

    함수 fXRR+ 가측함수이고 (simple function 이므로)

    BR:μX(B)=fd#X

    를 만족한다. 따라서

    fX=dμXd#X

    이다. 즉 fX#X에 대한 μX의 라돈니코딤 도함수로 해석할 수 있다.

    - 정의 (디렉메져): 가측공간 (R,R)에서 디렉메져 δx

    BR: δx(B)=1B(x)=1(xB)

    로 정의되는 메져이다.

    - 디랙메져의 표현법에 따르면 예제2의 경우 #X:=δ0+δ1 로 표현할 수 있다. 여기에서 δx(R,R)에서의 디랙메져이다.

    - 꼭 베르누이와 같은 상황이 아니라도 임의의 이산확률변수 X에 대한 분포 μX를 dominating하는 적절한 σ-finite한 메져 #X(R,R)에서 정의할 수 있다. 예를들면 주사위예제의 경우

    #X=δ1+δ2+δ3+δ4+δ5+δ6

    와 같은 방식으로 정의할 수 있다. 즉 임의의 이산확률변수 X에 대하여 아래를 만족하는 #X를 항상 잡을 수 있다.

    1. #X is σ-finite
    2. μX<<#X

    따라서 dμXd#X는 언제나 잘 정의되며 이는 우리가 알고 있는 pmf의 정의와 일치한다.

    - 결국 이산형 확률변수의 밀도함수를 설명하는 방법은 크게 3가지가 있는 셈이다.

    1. 이산형확률변수는 밀도함수가 없다.
    2. 이산형확률변수의 밀도함수는 dd#μ~X 으로 정의할 수 있다.
    3. 이산형확률변수의 밀도함수는 dd#XμX 으로 정의할 수 있다.

    설명1,2,3은 각각의 장단점이 있다.

    설명1: 라돈니코딤 도함수에 대한 이해가 없어도 된다는 점에서 장점이 있다. (그래서 학부수준에서는 가장 일반적으로 사용하는 설명)

    설명2: 연속형은 르벡메져에 대한 라돈니코딤 도함수, 이산형은 카운팅메져에 대한 라돈니코딤 도함수로 구분하여 설명할 수 있다는 점에서는 클리어하지만 분포함수 μX를 활용하지 못한다는 점과 그에 따라서 이산형 확률변수의 support S에 맞추어 가측공간 (S,S)를 재설정해야한다는 불편함이 있다. 이러한 방식으로 유도되는 베르누이 분포의 pmf는 아래와 같이 정의된다.

    • fX(x)=pX(x)={1px=0px=1

    설명3: 연속형은 르벡메져에 대한 라돈니코딤 도함수, 이산형은 카운팅메져에 대한 라돈니코딤 도함수로 구분하여 설명할 수는 없으며 확률변수 X에 따라서 #X를 그때 그때 정의해야하는 지저분함이 있다. 하지만 분포함수 μX를 활용할 수 있고 가측공간 (R,R)를 그대로 활용한다는 장점이 있다. 이러한 방식으로 유도되는 베르누이분포의 pmf는 아래와 같이 정의된다.

    • fX(x)=pX(x)={1px=0px=10o.w.

    여기에서 pX(x)는 학부때 배우는 pmf

    혼합형확률변수

    - 예제1: 아래와 같은 분포함수 FX를 고려하자.

    FX(x)={0x<0120x<12x12x11x>1

    이 분포함수는 동전을 던져 앞면이 나오면 X=0으로 결정하고 뒷면이 나오면 균등분포 [0.5,1]에서 확률변수 X를 생성하는 실험을 상상하면 쉽게 이해할 수 있다. 아래와 같은 함수

    fX(x)={12x=0112x10o.w.

    FX의 밀도함수가 될 수 있음을 설명하라.

    (해설)

    1. ν:=λ+δ0 이라고 정의하자.
    2. νσ-finite 하며 μX<<ν 를 만족한다.
    3. 함수 fX(x)는 가측함수이며 (simple function) BR에 대하여 아래를 만족한다.

    μX(B)=BfXdν=BfXd(λ+δ0)=BfXdλ+BfXdδ0

    B=(,x]와 같은 꼴에서만 성립함을 보이고 나머지는 π-λ thm 쓰면 되죠?

    위의 3에 대한 추가설명.

    결국 임의의 B=(,x]와 같은 꼴에서 μX(B)=BfXdλ+BfXdδ0 임을 보이면 된다.

    편의상 아래와 같이 정의하자.

    • LHS=μX(B)
    • RHS1=BfXdλ
    • RHS2=BfXdδ0

    case1: x<0

    • LHS=FX(x)=0
    • RHS1=0
    • RHS2=0

    case2: x=0

    • LHS=FX(x)=12
    • RHS1=0fX(x)dx=0
    • RHS2={0}fXdδ0=fX(0)δ0({0})=12

    case3: 0<x<12

    • LHS=FX(x)=12
    • RHS1=0fX(x)dx+0xfX(x)dx=0
    • RHS2={0}fXdδ0=fX(0)δ0({0})=12

    case4: 12<x<1

    • LHS=FX(x)=x
    • RHS1=1/2fX(x)dx+1/2xfX(x)dx=1/2xfX(x)dx=1/2xdx=x12
    • RHS2={0}fXdδ0=fX(0)δ0({0})=12

    case5: x>1

    • LHS=FX(x)=1
    • RHS1=1/2fX(x)dx+1/21fX(x)dx=1/21fX(x)dx=1/21dx=112
    • RHS2={0}fXdδ0=fX(0)δ0({0})=12

    르벡분해정리

    - Thm: 분포함수의 정의를 만족하는 임의의 F는 항상 아래와 같이 분해가능하다.

    F=Fac+Fpp+Fsing

    여기에서 Fac는 르벡메져에 대하여 절대연속이고 Fpp는 카운팅메져에 대하여 절대연속이다. 따라서 FacFpp는 각각 르벡메져와 카운팅메져에 대응하는 밀도함수가 존재한다. Fsing는 칸토어분포와 같이 밀도함수가 존재하지 않는 경우이다.

    여기에서 ac는 absolutely continuous 의 약자이고, pp pure point 의 약자이며 sing은 singular continuous 약자이다.

    - 의미: Fac는 우리가 일반적으로 생각하는 singular하지 않은 연속함수를 상상하면 된다. Fpp는 완벽한 불연속이며 오직 jump를 통해서만 증가하는 함수라 생각하면 된다. 즉 우리가 익숙한 이산형확률변수의 cdf를 상상하면 된다.

  • 4 칸토어처럼 이상한 연속함수 말고 상식적인 수준의 연속함수라는 의미

  • - 이론: Fpp는 기껏해야 countable한 불연속점을 가진다. (jump 하는 point는 countable이라는 의미, 결국 이산형확률변수의 support는 countable이라는 의미)

    - 이론: 분포함수 정의를 만족하는 임의의 F가 아래와 같다면

    F=Fac

    F에 대응하는 연속형 확률변수 X가 존재하고 그에 대응하는 pdf가 존재한다.

    - 이론: 분포함수 정의를 만족하는 임의의 F가 아래와 같다면

    F=Fpp

    F에 대응하는 이산형 확률변수 X가 존재하고 그에 대응하는 (일반화된) pdf 혹은 pmf가 존재한다.

    - 이론: 분포함수 정의를 만족하는 임의의 F가 아래와 같다면

    F=Fac+Fpp

    F에 대응하는 혼합형 확률변수 X가 존재하고 그에 대응하는 (일반화된) pdf가 존재한다.

    기대값

    - 예제1: (Ω,F,P)를 확률공간이라고 하고 Ω={H,T}, F=2Ω, P(H)=P(T)=12라고 하자. 확률변수 X(H)=0, X(T)=1를 정의하자. 이 확률변수의 기대값 E(X)를 계산하여 보자.

  • 5 이렇게 정의해도 되는 이유는 카라테오도리 확장정리덕분

  • X X=0 X=1
    P(X=x) 12 12

    (풀이)

    아래와 같이 계산할 수 있다. (고등학교 수준)

    E(X)=0×12+1×12

    이를 다른표현으로 써보면

    1. E(X)=0×(PX1)({0})+1×(PX1)({1})
    2. E(X)=0×μX({0})+1×μX({1})
    3. E(X)=x=01x×μX({x})
    4. E(X)=RxdμX:=RxdFX
    5. E(X)=RxdμXd#Xd#X
    6. E(X)=RxpX(x)d#X
    7. E(X)={0,1}xpX(x)d#X
    8. E(X)=x=01xpX(x)

    또는 아래와 같이 볼 수 도 있다.

    1. E(X)=0×(PX1)({0})+1×(PX1)({1})
    2. E(X)=X(H)×P({H})+X(T)×P({T})
    3. E(X)=XdP=ΩXdP=ωΩX(ω)dP(ω)
    위의 2 3에 대한 추가설명.

    아래와 같은 함수 f(x)를 다시 고려하자.

    f(x)={1Q[0,1]:=A10Qc[0,1]:=A2

    이 함수의 밑면적을 계산하기 위해서

    • fdλ=1×λ(A1)+0×λ(A2)

    와 같은 계산을 정의하였다. 이를 다시 평이한 언어로 표현하면

    • 적분값 = ( xA1에서의 함수값 f(x) ) × ( A1λ로 잰 길이) + ( xA2에서의 함수값 f(x)) × ( A2λ로 잰 길이)

    와 같은 방식으로 서술할 수 있다. 이제 가측함수 f에 대응하는 가측함수 X와, 메져 λ에 대응하는 메져 P를 고려하자. 즉

    1. f:[0,1]R 인 measurable function such that f(x)={1Q[0,1]:=A10Qc[0,1]:=A2
    2. X:ΩR 인 measurable function such that X(ω)={1ω{H}:=A10ω{T}:=A2
    3. λ:R[0,1][0,] 는 measure on ([0,1],R[0,1]).
    4. P:F[0,1] 는 measure on (Ω,F).

    에서 1대신 2를, 3대신 4를 생각하자는 의미이다. 그렇다면

    • 적분값 = ( xA1에서의 함수값 f(x) ) × ( A1λ로 잰 길이) + ( xA2에서의 함수값 f(x)) × ( A2λ로 잰 길이)

    은 아래와 같이 대응하여 바꿀 수 있고

    • 적분값 = ( ωA1에서의 함수값 X(ω) ) × ( A1P로 잰 길이) + ( ωA2에서의 함수값 X(ω)) × ( A2P로 잰 길이)

    이것은 다시

    • 적분값 = X(H)×P({H})+X(T)×P({T})

    로 쓸 수 있다. 아래의 수식

    • fdλ=1×λ(A1)+0×λ(A2)

    에 대응하여 다시 상기하면

    • XdP=X(H)×P({H})+X(T)×P({T})

    로 쓸 수 있다.

    - 예제2: (Ω,F,P)를 확률공간이라고 하고 Ω=[0,2π), F=R[0,2π), P([0,x))=x2π라고 하자. 확률변수 X(ω)=ω에 대한 기대값 E(X)를 계산하여 보자.

  • 6 R[0,2π):={B[0,2π):BR}

  • 7 이렇게 정의해도 되는 이유는 카라테오도리 확장정리덕분

  • (풀이)

    아래와 같이 계산할 수 있다. (고등학교 수준)

    E(X)=02πx12πdx

    이는 아래와 같이 변형할 수 있다.

    1. E(X)=02πxfX(x)dx, where fX(x)=12π.
    2. E(X)=RxfXdλ.
    3. E(X)=RxdμXdλdλ.
    4. E(X)=RxdμX:=RxdFX.

    혹은 아래와 같이 변형할 수 있다.

    1. E(X)=RxdμX=[0,2π)xdμX(x)
    2. E(X)=ΩX(ω)dP(ω)=XdP
    위의 1 2, 즉 [0,2π)xdμX(x)=ΩXdP 에 대한 이해의 추가설명 (강의에 너무 대충 설명해서..)

    이 예제에서는 X:[0,2π)[0,2π)가 항등함수이므로,

    μX:=PX1=P

    가 성립하는 특이한 경우이다. 이는 이해를 용이하게 위해서 이 예제에서 특별하게 설정된 상황이다. 하지만 이 성질은 꼭 X가 항등함수가 아닐지라도 일반적으로 성립한다.

    - 정의: X가 확률공간 (Ω,F,P)에서 정의된 확률변수라고 할때 그 기대값 E(X)는 아래와 같이 정의한다.

    E(X)=ΩXdP

    여기에서 X는 이산형, 연속형, 혼합형등 어떠한 형태의 확률변수라도 상관없다. 위의 기대값은 항상 아래와 같이 표현할 수 있다.

    E(X)=RxdμX:=RxdFX

    만약 FX가 절대연속인 경우 (즉 μX<<λ 인 경우) 아래와 같이 표현가능하다.

    E(X)=xfX(x)dx

    만약에 FX가 countable한 jump로만 구성되어 있다면 μX는 jump point에서 support로 가지는 수정된 카운팅메져 #X에 대하여 절대연속이 되며 (즉 μX<<#X) 이 경우 기대값은 아래와 같이 표현가능하다.

    E(X)=xxpX(x)

    여기에서 fX(x)pX(x)는 각각 확률변수 X의 pdf, pmf가 된다. (혹은 λ#X에 대한 라돈니코딤 도함수)

    - 요약

    • 학부수준: 연속형확률변수의 기대값과 이산형확률변수의 기대값이 서로 다르게 정의된다.
    • 대학원수준: 두 경우 모두 E(X)=XdP로 정의된다.

    Appendix

    - 생존분석 강의노트

    - WGAN

    - 시계열교재